定量推理是对数据数据的关键技能,但是对此类问题的评估仍然有限。为了解决这一差距,我们介绍了使用数据(QRD ATA)基准的定量推理,旨在评估大语言模型在具有现实世界数据的基础和因果推理方面的能力。基准包括一个精心结构的数据集,其中包含411个问题,并附有教科书,在线学习材料和学术论文的数据表。为了比较模型在数据和文本上的定量推理能力,我们用290个仅文本问题的辅助设置(即QRT ext)进行了辅助集。我们评估了自然语言原因,基于程序的推理以及制定的方法,包括对不同模型的三个三通,思想计划,反应和代码助理的助手。最强的GPT-4型号的精度为58%,这有很大的改进空间。在开源模型中,DeepSeek-Codor-Instruct(在2T代币上预估计的代码LLM)的精度最高37%。分析表明,模型在数据分析和因果推理中遇到困难,并在使用因果知识方面陷入困境,并同时提供数据。代码和数据在https://github.com/xxxiaol/qrdata中。
![arxiv:2402.17644v2 [CS.CL] 2024年6月9日PDF文件第1页](/bimg/8/897860b991d690fc5fca01195803abd6ccc4c6fe.webp)
![arxiv:2402.17644v2 [CS.CL] 2024年6月9日PDF文件第2页](/bimg/2/2010ba1a8bd7bd8ef28b24fb8137e5cf3fd41d5e.webp)
![arxiv:2402.17644v2 [CS.CL] 2024年6月9日PDF文件第3页](/bimg/8/8bdb9d031c7cd7b51e4aae75291a838f1dc7c42a.webp)
![arxiv:2402.17644v2 [CS.CL] 2024年6月9日PDF文件第4页](/bimg/5/50bad50bb18cf181647caacf5730ea024da26608.webp)
![arxiv:2402.17644v2 [CS.CL] 2024年6月9日PDF文件第5页](/bimg/e/ecc6ab57e3c2630a1e1e403090ebd8ffed3041bd.webp)
